基于蒸馏的压缩网络的性能受蒸馏质量的管辖。大型网络(教师)到较小网络(学生)的次优蒸馏的原因主要归因于给定教师与学生对的学习能力中的差距。虽然很难蒸馏所有教师的知识,但可以在很大程度上控制蒸馏质量以实现更好的性能。我们的实验表明,蒸馏品质主要受教师响应的质量来限制,这反过来又受到其反应中存在相似信息的影响。训练有素的大容量老师在学习细粒度辨别性质的过程中丢失了类别之间的相似性信息。没有相似性信息导致蒸馏过程从一个例子 - 许多阶级学习减少到一个示例 - 一类学习,从而限制了教师的不同知识的流程。由于隐式假设只能蒸馏出灌输所知,而不是仅关注知识蒸馏过程,我们仔细审查了知识序列过程。我们认为,对于给定的教师 - 学生对,通过在训练老师的同时找到批量大小和时代数量之间的甜蜜点,可以提高蒸馏品。我们讨论了找到这种甜蜜点以便更好地蒸馏的步骤。我们还提出了蒸馏假设,以区分知识蒸馏和正则化效果之间的蒸馏过程的行为。我们在三个不同的数据集中进行我们的所有实验。
translated by 谷歌翻译
Due to the unequivocal need for understanding the decision processes of deep learning networks, both modal-dependent and model-agnostic techniques have become very popular. Although both of these ideas provide transparency for automated decision making, most methodologies focus on either using the modal-gradients (model-dependent) or ignoring the model internal states and reasoning with a model's behavior/outcome (model-agnostic) to instances. In this work, we propose a unified explanation approach that given an instance combines both model-dependent and agnostic explanations to produce an explanation set. The generated explanations are not only consistent in the neighborhood of a sample but can highlight causal relationships between image content and the outcome. We use Wireless Capsule Endoscopy (WCE) domain to illustrate the effectiveness of our explanations. The saliency maps generated by our approach are comparable or better on the softmax information score.
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
在现实世界条件下运行的原因是由于部分可观察性引起的广泛故障而具有挑战性。在相对良性的环境中,可以通过重试或执行少量手工恢复策略之一来克服这种失败。相比之下,诸如打开门和组装家具之类的接触式连续操作任务不适合详尽的手工设计。为了解决这个问题,我们提出了一种以样本效率的方式来鲁棒化操作策略的一般方法。我们的方法通过在模拟中探索发现当前策略的故障模式,从而提高了鲁棒性,然后学习其他恢复技能来处理这些失败。为了确保有效的学习,我们提出了一种在线算法值上限限制(值UCL),该算法选择要优先级的故障模式以及要恢复到哪种状态,以使预期的性能在每个培训情节中最大程度地提高。我们使用我们的方法来学习开门的恢复技能,并在模拟和实际机器人中对其进行评估。与开环执行相比,我们的实验表明,即使是有限的恢复学习也可以从模拟中的71 \%提高到92.4 \%,从75 \%到90 \%的实际机器人。
translated by 谷歌翻译
深度学习方法缺乏无线胶囊内窥镜检查(WCE)自动诊断的可普遍性,这阻止了任何显着优势降低到真实的临床实践。结果,使用WCE的疾病管理继续依赖医学专家的详尽手动调查。尽管有几个优势,但这解释了其有限的用途。先前的工作已经考虑使用更高质量和数量的标签作为解决缺乏概括的一种方式,但是考虑到病理多样性,这几乎是无法扩展的,更不用说标记大型数据集的标签还会支持医务人员。我们建议使用免费可用的域知识作为先验,以学习更多可靠和可推广的表示。我们通过实验表明,领域先验可以通过在标签的代理中作用来使表示形式受益,从而大大减少了标签要求,同时仍可以完全无监督而又感知的学习。我们在预处理过程中使用对比度目标以及先前的指导观点,在此观点选择激发了对病理信息的敏感性。在三个数据集上进行的广泛实验表明,我们的方法的性能要比(或与)域中的最新技术更好,在病理分类和跨数据库概括方面建立了新的基准,并扩展到不看病的病理学类别。
translated by 谷歌翻译
我们考虑使用最低限度的努力与人类机器人团队一起完成一组$ n $任务的问题。在许多领域中,如果有许多任务有限的任务,教机器人完全自主可能会适得其反。相反,最佳策略是权衡教授机器人及其好处的成本 - 它允许机器人自动解决多少新任务。我们将其作为规划问题提出,目的是确定机器人应自动执行的任务(ACT),应将哪些任务委派给人类(委托)以及应教授机器人的哪些任务(学习)以完成所有给定的任务都以最小的努力。这个计划问题导致搜索树以$ n $成倍增长 - 使标准图形搜索算法难以理解。我们通过将问题转换为混合整数程序来解决这个问题,该程序可以使用固定求解器有效地解决解决方案质量的范围。为了预测学习的好处,我们提出了一个先进的预测分类器。给定两个任务,该分类器预测接受培训的技能是否会转移到另一个。最后,我们在模拟和现实世界中评估了有关PEG插入和乐高堆叠任务的方法,显示了人类努力的大量节省。
translated by 谷歌翻译
这项工作提出了一个基于注意力的序列到序列模型,用于手写单词识别,并探讨了用于HTR系统数据有效培训的转移学习。为了克服培训数据稀缺性,这项工作利用了在场景文本图像上预先训练的模型,作为调整手写识别模型的起点。Resnet特征提取和基于双向LSTM的序列建模阶段一起形成编码器。预测阶段由解码器和基于内容的注意机制组成。拟议的端到端HTR系统的有效性已在新型的多作用数据集IMGUR5K和IAM数据集上进行了经验评估。实验结果评估了HTR框架的性能,并通过对误差案例的深入分析进一步支持。源代码和预培训模型可在https://github.com/dmitrijsk/attentionhtr上找到。
translated by 谷歌翻译
识别视频中的玩家是基于计算机视觉的体育分析的基础步骤。获得播放器标识对于分析游戏至关重要,并且用于游戏事件识别等下游任务。变压器是自然语言处理(NLP)的现有标准,并在计算机视觉中迅速获得牵引力。在计算机愿景中的变压器成功增加的推动,在本文中,我们介绍了一种通过广播国家曲棍球联赛(NHL)视频的泽西号码来识别玩家的变压器网络。变压器将玩家帧的时间序列(也称为播放器轨迹)作为输入,输出帧中存在的泽西号码的概率。所提出的网络比使用数据集上的上一个基准测试更好。我们通过为泽西号码的近似帧级标签产生近似帧级标签来实现弱监督的培训方法,并使用帧级标签以更快的培训。我们还通过使用光学字符识别(OCR)阅读游戏时间来利用NHL游戏数据中提供的玩家换档,以在某种游戏时间内将玩家放在溜冰场上。使用播放器转换将播放器识别精度提高了6%。
translated by 谷歌翻译
在诸如人类姿态估计的关键点估计任务中,尽管具有显着缺点,但基于热线的回归是主要的方法:Heatmaps本质上遭受量化误差,并且需要过多的计算来产生和后处理。有动力寻找更有效的解决方案,我们提出了一种新的热映射无关声点估计方法,其中各个关键点和空间相关的关键点(即,姿势)被建模为基于密集的单级锚的检测框架内的对象。因此,我们将我们的方法Kapao(发音为“KA-Pow!”)对于关键点并作为对象构成。我们通过同时检测人姿势对象和关键点对象并融合检测来利用两个对象表示的强度来将Kapao应用于单阶段多人人类姿势估算问题。在实验中,我们观察到Kapao明显比以前的方法更快,更准确,这极大地来自热爱处理后处理。此外,在不使用测试时间增强时,精度速度折衷特别有利。我们的大型型号Kapao-L在Microsoft Coco Keypoints验证集上实现了70.6的AP,而无需测试时增强,其比下一个最佳单级模型更准确,4.0 AP更准确。此外,Kapao在重闭塞的存在下擅长。在繁荣试验套上,Kapao-L为一个单级方法实现新的最先进的准确性,AP为68.9。
translated by 谷歌翻译
机器学习技术的进步鼓励研究人员将这些技术应用于使用源代码分析(例如测试和漏洞检测)的无数软件工程任务。如此大量的研究阻碍了社区了解当前的研究格局。本文旨在总结用于源代码分析的机器学习中当前知识。我们审查了属于软件工程任务的十二类的研究以及已应用于解决它们的相应的机器学习技术,工具和数据集。为此,我们进行了广泛的文献搜索,并确定了2011年至2021年之间发表的479项主要研究。我们在确定的研究的帮助下总结了我们的观察结果和发现。我们的发现表明,将机器学习技术用于源代码分析任务的使用始终在增加。我们综合了常用的步骤和每个任务的总体工作流程,并总结了所使用的机器学习技术。我们确定在此上下文中可用的可用数据集和工具的全面列表。最后,本文讨论了该领域的感知挑战,包括标准数据集的可用性,可重复性和可复制性以及硬件资源。
translated by 谷歌翻译